数据存储十年变革:16位专家解析2024年新挑战
正如爱因斯坦所言,时间的流逝是相对的,取决于观察者的视角。
对一只狗而言,一年的时光可能就如同人类经历的七年那般漫长。
而在存储行业,变革的速度远超其他许多人类活动领域。
为探究十年前企业在存储和管理数据方面遇到的难题,与当今的挑战之间的异同,我们邀请了一组专家小组进行深入探讨。
此外,我们还请他们就当前的存储格局及其日益复杂的挑战如何影响技术发展进行了分享。
专家们的洞察不仅勾勒出了主要趋势,同时也呼应了那句老话:历史不会重演,但总是惊人的相似。
Brock Mowry - CTO, Tintri Craig Carlson - TC Advisor, SNIA David Norfolk - Practice Leader, Bloor Research Drew Wanstall - VP of BD, Scale Logic Enrico Signoretti - VP Product, Cubbit Erfane Arwani - CEO, Biomemory Ferhat Kaddour - VP Sales, Atempo Johan Pellicaan - VP, Scale Computing Kim King - Senior Director, HYCU Paul Speciale - CMO, Scality Randy Kerns - Senior Strategist, Futurum Group Ricardo Mendes - CEO, Vawlt Technologies Roy Illsley - Chief Analyst, Omdia Scott Sinclair - Practice Director, Enterprise Storage Group Sergei Serdyuk - VP of Product, Nakivo Valéry Guilleaume - CEO, Nodeum
宏观层面看,数据存储挑战与十年前并无太大差异。
Randy Kerns(Futurum Group):尽管技术有所更新,但挑战并未发生太大变化。最大的挑战可能是应对不断增长的存储容量需求。第二个挑战是数据保护。尽管勒索病毒攻击的强度不像今天这么严重,但数据保护依然是一个重大问题。第三个挑战是缺乏足够的员工来处理存储工作量。从十年前开始,这个问题变得更加严重。
Brock Mowry(Tintri):挑战与十年前相似,但范围和规模已经发生了翻天覆地的变化。
Erfane Arwani(Biomemory):随着数据量的急剧膨胀,众多企业面临着管理上的巨大挑战,主要原因是采用的技术解决方案尚未针对大规模数据量进行有效优化。十年前,企业级机械硬盘的容量大多介于1TB到4TB之间。但近十年间,硬盘容量迅猛增长,如今最大容量的机械硬盘已达到30TB。同时,数据中心对闪存存储的需求也大幅增加,目前最大的企业级固态硬盘容量已超过60TB。而在2014年,企业主要依赖本地化存储,对公有云存储服务的运用尚不如目前普遍。
Ferhat Kaddour(Atempo):当时,存储方案主要集中在NAS和SAN上,而云解决方案则如同“冰浴”一样——虽然有其好处,但并非适合所有人。
确保有足够的存储容量是一项复杂的任务。
Drew Wanstall(Scale Logic):可扩展性挑战主要涉及对未来存储需求的预测、优化存储利用率以及实施有效的存储分层策略。
时至今日,数据依然以惊人的速度增长。
Enrico Signoretti(Cubbit):数据以如此疯狂的速度持续增长,真是令人惊叹。
Valéry Guilleaume(Nodeum):新的数据来源正在推动这种增长,并已经开启了所谓的“大数据时代”。如今,数据生成者已不再局限于用户,还包括各行各业不断涌现的系统,如智能汽车、电子显微镜、Blade 扫描仪、地震传感器等。这些新来源产生数据的速度,与10到15年前相比,其迅猛程度不可同日而语。
随着公有云存储的广泛应用以及存储技术的持续进步,扩展物理存储容量以跟上数据增长的需求在一定程度上得到了缓解。在过去的十年里,最为显著的技术发展之一就是闪存存储价格的显著降低,这一变化极大地推动了闪存在企业数据中心中的广泛应用。
Randy Kerns(Futurum Group):存储的容量需求仍然存在,但闪存的规模和性能使得用户能够实现更高程度的整合、减少物理系统数量、降低功耗/冷却/空间需求,并且更直接地解决性能问题。解决这些问题的技术已经投入使用,并且比十年前更加高效。然而,如何拥有足够的具备相应技能的员工来充分利用这一技术,成为了一个亟待解决的问题。
存储的可扩展性依然是一个关键问题。
Scott Sinclair(Enterprise Storage Group):数据增长使数据管理变得更加复杂,但与过去的情况已有所不同。如今的存储解决方案在可扩展性方面取得了显著的进步。数据爆炸所带来的挑战,特别是在AI领域,主要在于如何找到合适的数据,将其以正确且清晰的格式提取出来,并尽快加以利用。如今的挑战不再是如何存储数据,而是如何高效地利用这些数据。
David Norfolk(Bloor Research):十年前的技术问题基本已经得到解决。如今,存储变得既经济实惠又可靠,而且易于扩展。但存储管理,包括威胁管理,现已成为成本增加的主要因素。
威胁主要源于网络攻击,过去十年,网络攻击的数量和强度均呈现显著增长的趋势。
Paul Speciale(Scality):安全无疑是当今存储领域的头号挑战。尽管恶意行为者和用户始终构成安全威胁,但如今的问题愈发棘手且成本高昂,这主要是由于一些组织严密、资金雄厚的勒索病毒团伙的存在,其中不乏由某些政府资助的团伙。
Sergei Serdyuk(Nakivo):随着勒索病毒的不断演变,恶意AI工具的涌现以及网络犯罪“即服务”模式的出现,数据保护已成为当前存储领域面临的核心挑战。违规行为愈发频繁,且攻击者采取了更为先进的策略,如双重(甚至三重)勒索以及近期观察到的双重攻击。
这并非唯一导致存储管理成本上升的IT环境变化。十年前,数据增长主要源于业务的整体数字化和数据分析需求的增长。而如今,数据增长还受到了训练AI/ML系统所需数据收集需求的推动,同时IoT作为数据源的崛起也不容小觑。虽然IoT这个术语在1990年代就已提出,但它在过去十年才真正普及开来。此外,企业还在不断存储更多的非结构化数据,如视频和文本。非结构化数据在企业存储数据中占据了大部分,与结构化数据不同,非结构化数据没有遵循预定义的数据库模式,这使得其管理变得更加困难。
Ferhat Kaddour(Atempo):如今,我们仿佛置身于浩渺的大数据海洋中。无论是客户互动还是传感器收集的数据,即便是规模较小的实体也在处理着PB级数据,而大型企业则处理着EB级数据。挑战不仅在于数据的庞大数量,更在于制定和实施提取、分类和保护数据所需的战略。
David Norfolk(Bloor Research):在使用非结构化数据时,难以保证的关键数据属性就是“质量”。这是因为如今的数据往往来自一个庞大的数据池,而非一个经过精心设计的数据库。
边缘计算和公有云作为混合计算策略的一部分,使存储管理的复杂性进一步提升。
Johan Pellicaan(Scale Computing):在分布式环境中高效地管理边缘数据变得至关重要,这要求确保数据的可用性和韧性,从而带来了新的挑战。
除了需要在边缘保护数据外,还必须具备在多个位置之间灵活移动数据的能力。
Scott Sinclair(Enterprise Storage Group):当今的主要挑战在于如何在多云和混合云环境中高效地移动数据。大约50%的企业表示他们“一直”或“经常”需要在本地和离线环境之间迁移数据。由于数据需要在AWS、Azure、GCP、数据中心、边缘等各种环境之间流通,这些问题变得更加复杂棘手。
数据的流动以及在多个计算站点之间实现互操作性的需求,并非公有云计算所带来的唯一复杂性。
Ricardo Mendes(Vawlt Technologies):由于公有云是大多数企业保留数据的主要解决方案之一,因此对这些外部供应商在业务连续性甚至更重要的数据主权相关事项上的依赖现在成为了一个日益增长的挑战。
数据主权是使用公有云所面临的一大挑战。
Enrico Signoretti(Cubbit):复杂的数据主权法规,如GDPR和NIS2(欧盟网络与信息安全指令),给企业增加了额外的复杂性。同时,公有云SaaS服务的引入也带来了新的数据保护位置问题。
Kim King(HYCU):如今的一个显著变化在于企业存储关键数据的位置愈发多样化,这一点在SaaS应用程序的广泛应用中尤为突出。中型企业平均使用超过200个SaaS应用程序,但几乎很少有选择能够为企业数据保护提供全面支持,使其能够覆盖这些应用程序,并提供快速、细粒度的恢复服务。超过50%的成功勒索病毒攻击最初都是针对SaaS应用程序发起的。
Randy Kerns(Futurum Group):在公有云中满足与本地环境相同的信息资产保护企业需求,已成为一项需要不断学习和掌握的技能,往往还需要引入新的软件解决方案。不过,也有人认为在公有云中无需如此费力。
公有云的优势之一在于技术的民主化,使得中小型企业也能从中受益。
David Norfolk(Bloor Research):过去,大公司和小公司之间在数据存储上存在着显著的差距,大公司拥有完善的数据库系统,而小公司则只能使用不支持ACID(原子性、一致性、隔离性和持久性)原则的数据存储方案。然而,云技术的普及已经极大地缩小了这种差距。
这些挑战如何影响存储技术以及供应商所提供的服务。
Sergei Serdyuk(Nakivo):面对安全挑战,正通过开发更复杂的防御措施来应对网络攻击。供应商正在将先进的加密机制、访问控制和合规功能融入他们的解决方案中。许多供应商提供安全隔离区和基于硬件的安全功能,以应对不断变化的威胁态势。然而,不少存储解决方案在全面备份和恢复工具方面仍然存在不足。因此,为了满足从多样化来源提取和分类数据的需求,正推动着自动化这一过程的软件工具的开发。管理工具如元数据标记、版本控制和分析能力正日益受到重视。
Valéry Guilleaume(Nodeum):新兴的数据分析解决方案如今能让数据“开口说话”,并以前所未有的方式从中提取元数据。
与此同时,还需要数据管理软件来支持混合云和多云基础设施。
Sergei Serdyuk(Nakivo):意识到这一点的供应商正在研发能与各种云服务商、本地化基础设施以及混合配置轻松集成的解决方案。同时,他们也提供了能够在不同环境中实现无缝数据迁移和同步的工具。
Scott Sinclair(Enterprise Storage Group):技术在不同环境中的一致性是一个重要的推动因素。一些供应商正在将其技术迁移到云端。例如,NetApp就是这样一家供应商,其本地化存储和数据管理软件已经与AWS、微软Azure和谷歌云公有云进行了整合。另外,一些供应商正在集成第三方技术,如VMware或Red Hat OpenShift,这些技术可以在多个位置部署,
Enrico Signoretti(Cubbit):在需要维护数据主权并遵守适用于可能涉及多个公有云和多个国家的存储的多个数据法规所带来的复杂性方面,供应商正在优先考虑为医疗保健和公共部门等受监管行业提供主权解决方案,强调在EMEA和APAC等地区的合规性。尽管仍受到CLOUD法案的约束,但微软和AWS最近推出了主权云存储服务。
在维护数据主权和遵守涉及多个公有云和多个国家的复杂存储数据法规方面,供应商正优先考虑为医疗保健、公共部门等受监管行业提供数据主权解决方案,特别注重在EMEA和APAC等地区的合规性。尽管仍受到《CLOUD法案》的约束,但微软和AWS等巨头最近已推出了主权云存储服务。《CLOUD法案》(明确合法海外数据使用法案)是美国于2018年通过的一项立法,它赋予了美国及非美国当局在调查犯罪行为时访问服务提供商持有的企业数据的权利。
为AI系统提供快速数据访问的必要性。
Craig Carlson(SNIA):目前,研究正在聚焦于如何通过确保网络的高性能和高度可扩展性来解决AI问题。这样的工作正在像Ultra Ethernet这样的组织中开展。
Ultra Ethernet联盟正在开发一种架构,据称将使以太网的速度达到当前超级计算互连的水平,同时具备高度可扩展性、与当前以太网一样普及和成本效益,并具有向后兼容性。该联盟备受支持的成员包括AMD、Arista、Broadcom、思科、华为、HPE和英特尔。
在AI/ML背景下,随着数据量的不断增长,企业将面临一系列未来挑战。
Brock Mowry(Tintri):数据的大小与管理难度关联密切,更多的数据无疑会带来更加复杂的存储挑战。数据增长在各个方面都加剧了需求,这进一步强调了高效利用数据的重要性,即所谓的“事半功倍”。
Valéry Guilleaume(Nodeum):这种迫切需求迫切需要更强的支持,这很可能源于数据管理系统的发展,如元数据标记、版本控制和分析能力的提升。
David Norfolk(Bloor Research):当今AI行业及其对数据的渴求正成为一大难题,即海量数据带来的可持续性和资源成本问题,即使单位数据的存储成本有所下降。数据质量也将是一大挑战。决策不应建立在过时、错误或存在偏差的数据之上,尤其对于AI来说,训练过程中使用偏差数据会导致其效果不佳。
Craig Carlson(SNIA):这些存储管理和流动性的进步可能不仅局限于AI的应用,因为技术总会逐渐普及。因此,目前专为最高端AI数据中心开发的技术将在未来几年内变得更加普遍。
关于可持续性。
Roy Illsley(Omdia):问题的关键是,如何让存储和所有数据实现更高的“绿色”标准?在某个时刻,我们不得不调整生活方式和工作模式,或者借助技术来应对挑战。这两者将相辅相成,这就要求我们思考如何减少数据生成,或者更精确地了解和管理我们手中的数据资源。
Erfane Arwani(Biomemory):存储对环境的影响,特别是碳排放和能源消耗方面,已经成为当前存储挑战的重中之重,此外还涉及平台互操作性和安全性等问题。据国际能源署(IEA)估算,2022年数据中心的电力消耗约占全球电力需求的1%至1.3%。到2026年,数据中心的能源消耗可能会激增至3至4倍。这些问题的解决成本更高、复杂性更大,因为它们不仅需要技术层面的进步,还需要在数据治理方面提升意识并做出相应变革。
Craig Carlson(SNIA):从硬件角度来看,闪存技术似乎已进入停滞期,因为闪存芯片制造商难以通过在每个存储单元中塞入更多数据位来进一步降低成本。在未来十到二十年间,哪种技术能够为存储领域带来可靠的高性能?长期沿用现有的磁带-硬盘-闪存模式可能并非长久之计。为此,新型存储技术(目前仍处于实验阶段)正在加速发展,例如DNA存储。
Erfane Arwani(Biomemory):DNA存储技术有望成为解决存储环境问题的可行方案。当前,供应商们正积极研发更为环保的存储方案,如减少能源消耗的氦气硬盘,以及由生物记忆和目录DNA等公司开发的DNA存储技术。这些技术不仅承诺每克存储密度可达1EB,而且耐久性可达数千年之久。更为重要的是,它们为全新的应用场景开辟了新的可能性,例如首个太空数据中心的建设。
若上述预测成真,请记住你最先是在本文中读到的。
Source:Federica Monsone; What Difference Decade Makes for Storage Challenges in 2014 Vs. Now? April 25, 2024
--【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/关注领域)